Model Selection

Low CER Optimization

# Low CER Optimization

Wav2vec2 Large Chinese Zh Cn

Chinese speech recognition model fine-tuned based on XLSR-53 large model, supporting 16kHz sampled audio input

Speech Recognition

Transformers Chinese

Wav2vec2 Xls R 300m Zh HK Lm V2

An automatic speech recognition model based on XLS-R architecture, optimized for Cantonese (zh-HK), fine-tuned on the Common Voice dataset and enhanced with a 5-gram language model.

Speech Recognition

Wav2vec2 Large Xlsr 53 Chinese Zh Cn

A Chinese speech recognition model fine-tuned based on facebook/wav2vec2-large-xlsr-53, supporting 16kHz sampling rate audio input.

Speech Recognition Chinese

Wav2vec2 Large Xlsr Japanese

A fine-tuned model based on facebook/wav2vec2-large-xlsr-53 for Japanese speech recognition tasks.

Speech Recognition

Transformers Japanese

Wav2vec2 Xls R 300m Korean

Korean automatic speech recognition model based on XLS-R architecture, fine-tuned on the Zeroth Korean dataset

Speech Recognition

Transformers Korean

Wav2vec2 Xls R 300m Japanese

This is a Japanese automatic speech recognition model fine-tuned based on facebook/wav2vec2-xls-r-300m, specifically designed for transcribing Japanese audio into Hiragana text.

Speech Recognition

Transformers Japanese

W2v Hf Jsut Xlsr53

A Japanese automatic speech recognition model fine-tuned from facebook/wav2vec2-large-xlsr-53 using the Common Voice and JSUT datasets.

Speech Recognition

Transformers Japanese

Wav2vec2 Large Xlsr 53 Tw Gpt

A speech recognition model fine-tuned on Taiwan Mandarin (zh-tw) based on facebook/wav2vec2-large-xlsr-53, supporting 16kHz sampling rate audio input

Speech Recognition

Wav2vec2 Xls R 300m Korean Lm

Korean automatic speech recognition model based on XLS-R architecture, fine-tuned on the Zeroth Korean dataset with an added 5-gram language model

Speech Recognition

Transformers Korean

Wav2vec2 Xls R 300m German De

This model is a fine-tuned German automatic speech recognition (ASR) model based on facebook/wav2vec2-xls-r-300m on the MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - DE dataset.

Speech Recognition

Transformers German

Wav2vec2 Xls R 300m Japanese

This is an automatic speech recognition (ASR) model fine-tuned on the Japanese Common Voice 8.0 dataset based on facebook/wav2vec2-xls-r-300m, supporting Japanese speech-to-text functionality.

Speech Recognition

Transformers Japanese

Wav2vec2 Large Japanese

Japanese speech recognition model fine-tuned from facebook/wav2vec2-large-xlsr-53, supports 16kHz sampling rate input

Speech Recognition Japanese

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase